En la madrugada del 15 de abril de 1912, el majestuoso Titanic, orgullo de la ingeniería marítima, se hundió tras chocar con un iceberg en el Atlántico Norte. De los 2 224 pasajeros y tripulantes a bordo, solo 710 lograron llegar con vida a los botes salvavidas. Lejos de ser un simple accidente, este desastre reveló de forma dramática cómo las dinámicas de clase, género y recursos económicos determinaron quiénes tuvieron realmente la oportunidad de sobrevivir.
En este informe vamos más allá de los números: queremos contar la historia que guardan los datos. Nuestra gran pregunta es:
¿Qué combinaciones de clase social, género, edad, precio del pasaje y puerto de embarque explican las diferencias en las tasas de supervivencia?
Para responderla planteamos tres hipótesis iniciales:
1. Clase social: los pasajeros de primera clase
tuvieron acceso prioritario a los botes, reflejando mayores tasas de
supervivencia.
2. Género: “mujeres y niños primero” sugirió una
ventaja para las mujeres, especialmente si viajaban con hijos.
3. Edad y tarifa: los niños y quienes pagaron pasajes
más caros —ubicados en cubiertas superiores— contaron con mejores
oportunidades de rescate.
A lo largo del documento exploraremos estas ideas con gráficos univariados, bidimensionales y multidimensionales, y con cada visualización reforzaremos la narrativa central: cómo las desigualdades sociales se tradujeron en vidas salvas o perdidas.
El hundimiento del Titanic no es solo una catástrofe marítima, sino un espejo de las desigualdades de principios del siglo XX. En la caótica evacuación, quedaron al descubierto varios factores determinantes:
Fare): un reflejo
del estatus socioeconómico y de la proximidad de la cabina a las zonas
de evacuación.Pregunta de investigación
¿Cómo, y en qué medida, cada uno de estos factores —de forma individual y combinada— condicionó la probabilidad de supervivencia de los pasajeros del Titanic?
En esta sección presentamos de forma clara la naturaleza y alcance del conjunto de datos que sustenta nuestro análisis. El archivo tested.csv contiene registros de 891 pasajeros del Titanic, con variables demográficas, socioeconómicas y de embarque. Comprender su estructura y calidad es clave para interpretar correctamente las visualizaciones que veremos más adelante.
¿Qué encontramos al inspeccionar estos datos?
Survived: indicador binario de supervivencia (0 = no, 1 = sí).
Pclass: clase del pasaje (1 = Primera, 2 = Segunda, 3 = Tercera).
Name, Sex, Age: información personal del pasajero.
SibSp, Parch: número de hermanos/cónyuges o padres/hijos a bordo.
Ticket, Fare, Cabin: detalles del billete, precio pagado y cabina asignada.
Embarked: puerto de embarque (C = Cherburgo, Q = Queenstown, S = Southampton).
Para asegurar la fiabilidad de nuestro estudio, evaluaremos también el porcentaje de valores faltantes en variables críticas:
Edad (Age): aproximadamente 20 % de los registros sin datos.
Cabina (Cabin): más del 70 % ausente, por lo que lo usaremos con cautela.
Puerto de embarque (Embarked): solo unos pocos valores faltantes.
Es importante aclarar que la falta de algunos valores podrían afectar la visualizacion estadística de los datos, por lo cual cados como “Cabina” que presentan solo un 30% de informacion, podrían no ser tan importantes de cara a evidenciar relaciones entre las variables.
Una vez cargados los datos en bruto, se presentan las visualizaciones más relevantes divididas en bloques de análisis. Cada gráfico incluye su explicación y las principales conclusiones que refuercen nuestra narrativa.
La edad de los pasajeros muestra un amplio rango, desde recién nacidos hasta ancianos. Al graficar un histograma con 30 intervalos, podremos identificar si existen concentraciones en determinados grupos etarios (por ejemplo, presencia de muchos niños pequeños o predominio de adultos jóvenes). Esta visión inicial es fundamental para decidir si, más adelante, es necesario imputar valores faltantes o agrupar la variable en categorías (niños, adultos, ancianos).
El histograma de edades nos muestra que la mayoría de la gente a bordo del Titanic tenía entre 20 y 30 años: casi 4 de cada 10 pasajeros. Eso significa que, cuando miremos quién sobrevivió o no, gran parte de la historia vendrá de ese grupo de “veintitantos”.
Los niños y adolescentes (de 0 a 20 años) son menos de uno de cada cinco pasajeros. Aunque “mujeres y niños primero” suene fuerte, su pequeñísimo número hace que, en el total, su influencia sea secundaria. Habrá que ver su tasa de rescate, pero sin olvidar que son pocos casos.
A partir de los 30 años la cantidad de pasajeros baja sin parar: de un 20 % en los treintañeros a un 6 % en los de 50–60, y casi nadie pasa de los 60. Ese goteo de mayores indica que cualquier conclusión sobre ancianos será inestable, porque casi no hay datos de ellos.
El género es un factor crítico para entender las decisiones de evacuación. Un gráfico de barras nos mostrará la proporción de hombres y mujeres abordo, sin mezclarlos aún con la supervivencia. Con este conteo simple confirmamos si existe un desequilibrio de género en la muestra, lo cual podría sesgar las tasas de supervivencia si, por ejemplo, hubiera muchos más hombres que mujeres.
Hay 266 pasajeros hombres y 152 mujeres, es decir, los varones representan alrededor del 64 % de la muestra y las mujeres el 36 %. Este desequilibrio es nítido: por cada mujer hay casi dos hombres a bordo.
Dado que un sexo es mayoría y el otro minoría, cualquier análisis posterior que involucre “Sex” debe basarse en porcentajes o tasas, no en conteos absolutos, para que la comparación sea justa y no esté sesgada por el simple hecho de que hay más hombres que mujeres.
El precio del boleto (Fare) es otra dimensión
unidimensional clave. Al graficar un histograma con 30 “bins”,
observaremos la dispersión de tarifas, desde los boletos más económicos
hasta los de lujo extremo. Una distribución muy sesgada hacia valores
bajos, con colas largas de valores altos, indicaría la necesidad de usar
escalas logarítmicas o agrupar tarifas en rangos para facilitar la
interpretación.
La gran mayoría de los pasajeros pagó montos bajos: cerca del 80 % pagó menos de 50 USD por su pasaje. Esa concentración en tarifas crea un énfasis bien definido a la izquierda del gráfico, donde se amontonan los boletos de costo bajo
Además, la curva se extiende con una larga cola hacia la derecha: hay unos cuantos pasajeros que pagaron centenares de dólares, y el máximo registrado llega a aproximadamente 500 USD. Esos picos aislados de tarifa alta representan a los viajeros de primera clase, pero son muy pocos.
Para profundizar en cómo interactúan dos variables clave con la supervivencia, presentamos a continuación dos visualizaciones que combinan información de clase, edad, tarifa y resultado (sobrevivió o no). Estas gráficas bidimensionales nos permiten ver, de un vistazo, patrones que no aparecen al analizar cada variable aisladamente.
Este gráfico de barras apiladas y normalizadas muestra la proporción de pasajeros que sobrevivieron en cada una de las tres clases sociales.
Casi la mitad de quienes viajaban en primera lograron salvarse, frente a poco más de un tercio en las otras dos clases. Eso refuerza la idea de que el acceso a los botes estaba muy favorecido para los de tarifa alta. Aunque la tercera clase suele considerarse la más desfavorecida, aquí vemos que su tasa de supervivencia es prácticamente igual a la de la segunda. La barra de primera clase está mucho más “balanceada” que las de segunda y tercera. Eso implica que, aunque viajar en primera no garantizaba la salvación, sí doblaba la probabilidad de sobrevivir en comparación con las clases económicas.
En esta nube de puntos coloreada por supervivencia, cruzamos edad (eje X) y tarifa pagada (eje Y), para ver si hay una tendencia conjunta entre quién pagó más y quién era más joven.
Parece haber un rango de edad privilegiado a la hora de salvarse, pues puntos verdes (los que sobrevivieron) y rojos (los que no) se mezclan a lo largo de todo el eje horizontal de la edad, sin embargo pareciera que alrededor de los 20 años hay un poco más verdes que en otras. En cambio, el eje de la tarifa funciona como una línea de bastante importancia: casi todos los que pagaron menos de 20 USD aproximadamente aparecen en rojo, mientras que los verdes se concentran en la zona de tarifas medias y altas. Esto nos dice que, más que la edad, lo que realmente marcó la diferencia fue el precio del pasaje (su clase, analizada más adelante).
Para profundizar aún más, combinamos la categoría de grupo etario (“Niños”, “Adultos”, “Adultos mayores”) con la clase de pasaje (1ª, 2ª, 3ª) y el resultado de supervivencia.
Primera clase (1ª Clase)
- Niños: sorprendentemente, ninguno de los niños que viajaba en primera clase sobrevivió (100 % fallecidos).
- Adultos: la supervivencia fue pareja, con un 50 % de los adultos salvados y un 50 % que no lo logró.
- Adultos mayores: más de la mitad salió con vida, frente a un casi 40 % que no sobrevivió.
Aquí, la ventaja de estar en primera clase benefició especialmente a los pasajeros de más edad, mientras que los niños tuvieron el peor desenlace.
Segunda clase (2ª Clase)
- Niños: este pequeño grupo disfrutó de un buen rescate: el 60 % de los niños de segunda clase sobrevivió.
- Adultos: solo el 30 % aproximadamente de los adultos salió con vida; el restante quedó detrás.
- Adultos mayores: ninguno de los pasajeros mayores de 60 años en segunda clase logró sobrevivir (100 % fallecidos).
En segunda clase la prioridad a “mujeres y niños” funcionó para los más jóvenes, pero no para los ancianos.
Tercera clase (3ª Clase)
- Niños: alrededor del 39 % de los niños de tercera clase sobrevivió, mientras que el 61 % no.
- Adultos: un tercio (33.3 %) de los adultos vivió, y dos tercios (66.7 %) murieron.
- Adultos mayores: al igual que en segunda clase, ningún mayor de 60 años en tercera clase sobrevivió.
En tercera clase la supervivencia fue baja en todos los grupos, ligeramente mejor para los niños, pero sin salvar a ningún anciano.
Más allá de dos variables, el gráfico de burbujas añade un tercer y
cuarto componente: el tamaño de la burbuja representa
la clase (Pclass) y el color indica
supervivencia. Esto nos permite identificar “clusters” de pasajeros con
características similares.
Al observar las figuras grandes (primera clase), vemos que casi todas en la zona de tarifas altas (por encima de 100 USD) son de color “Sí”: los pasajeros de primera que pagaron más tuvieron altas probabilidades de sobrevivir, sin importar la edad. Las figuras grandes y rojas (“No”) aparecen solo cuando la tarifa es baja o moderada, mostrando que incluso un viajero de primera clase corría peligro si su pasaje no fue de los más caros.
En las figuras de tamaño mediano (segunda clase), el color está más mezclado: hay algunos “Sí” en tarifas alrededor de 50 USD, pero muchas figuras rojas se extienden desde precios bajos hasta medios. Aquí la edad tampoco define el color: tanto jóvenes como adultos de mediana edad mueren o sobreviven dependiendo más de cuánto pagaron que de cuántos años tenían.
Las figuras pequeñas (tercera clase) están casi todas en rojo, especialmente en tarifas bajas (menores de 20 USD). Solo unas pocas tardías suben un poco en el eje y y cambian a verde, y suelen corresponder a adultos jóvenes. Los ancianos de tercera clase (pequeñas figuras en la parte derecha del eje x) permanecen rojos, incluso si la tarifa es algo mayor.
Finalmente, es importante destacar que la mayoría de supervivientes presentan una figura circulas, lo que nos indica que el sexo femenino cuenta con un mayor porcentaje de supervivencia que el masculino.De esta manera podríamos suponer que se siguió la regla “mujeres y niños primero”.
Para estudiar cómo interactúan tres variables al mismo tiempo, usamos
facetas que organizan la nube de puntos Edad vs Tarifa
según el puerto de embarque (filas) y el sexo (columnas). Con
scales = "free", cada panel ajusta sus ejes de forma
independiente para resaltar las variaciones locales.
Cherburgo (C)
Las pasajeras de Cherburgo exhiben las tarifas más altas de todo el conjunto de datos, con varios boletos que superan los 200 USD (alcanzando incluso 500 USD). Los hombres que embarcaron en C pagan también más que en otros puertos. En cuanto a la edad, las mujeres en C promedian alrededor de 36 años, mientras que los hombres se sitúan cerca de los 31 años, y ambos sexos muestran un rango amplio de edades.
Queenstown (Q)
Tanto mujeres como hombres de Queenstown pagan tarifas muy homogéneas, concentradas alrededor de los 7 USD.Se trata de un grupo de pasajeros con recursos limitados. Las edades se extienden desde la adolescencia hasta los cuarenta años, sin diferencias notables entre géneros.
Southampton (S)
Southampton representa un punto intermedio: las mujeres pagan alrededor de 20 USD y los hombres unos 10 USD, con la mayoría de los boletos en el rango de 7 USD a 40 USD. Hay algunos casos aislados de pasajes caros (hasta 200 USD), pero son minoría. La distribución de edades es similar para ambos sexos, con una aproximado alrededor de 25 años.
En esta sección presentamos dos visualizaciones clave de forma conjunta para reforzar nuestra narrativa sobre los factores que condicionaron la supervivencia en el Titanic:
Supervivencia (%) por Puerto y Clase (gráfico de barras agrupadas): muestra en un solo vistazo cómo variaron las tasas de supervivencia según el puerto de embarque (Cherburgo, Queenstown, Southampton) y la clase (1ª, 2ª, 3ª).
Heatmap: Tasa de Supervivencia (%) por Clase y Puerto: complementa el gráfico de barras al reflejar de manera continua y codificada por color las diferencias en porcentaje, facilitando la identificación de puntos calientes (por ejemplo, combinación clase–puerto con mayor o menor éxito de rescate).
- Cherburgo lidera la supervivencia, especialmente en primera clase (cercana al 50 %), mientras que en tercera clase la tasa es de tan solo el 22%.
- Queenstown muestra las tasas más altas en primera clase, a la vez que muestra 0% en segunda clase, convirtiendola en la ciudad de embarcación con supervivencia más polarizada entre las 3 clases.
- Southampton ocupa un punto intermedio, con supervivencia relativamente parecida entre primera y segunda clase (≈ 42 % y 33 %, respectivamente) pero marcada inequidad en tercera (≈ 28 %).
- El heatmap refuerza estos hallazgos al mostrar un gradiente continuo: los bloques de color más intensos (tasas altas) se concentran en la parte inferior central (Queenstown–1ª clase), mientras que los más tenues (tasas bajas) aparecen en la esquina superior izquierda(Cheburgo–3ª clase), superior derecha (Southhampton–3ª clase) y central (Queenstown–2ª clase).
El análisis exploratorio de los datos del Titanic revela patrones complejos de supervivencia influenciados por una combinación de factores socioeconómicos, demográficos y logísticos. A continuación, sintetizamos los hallazgos clave:
Clave: La política de género favoreció a las mujeres, pero su efectividad dependió críticamente de la clase social.
Clave: La tarifa actuó como proxy de ubicación física en el barco, no solo de recursos económicos.
Clave: El puerto reflejó composiciones socioeconómicas distintas, donde Cherburgo agrupó a pasajeros adinerados.
Combinación crítica:
Hombres de tercera clase, embarcados en Southampton, con tarifas <20
USD tuvieron una mortalidad del 89% (Gráfico de
burbujas + Heatmap).
Excepciones notables:
Clave: La supervivencia fue el resultado de intersecciones complejas entre variables, no de factores aislados.
Desigualdad estructural:
La ubicación física en el barco (vinculada a la clase) fue más
determinante que normas humanitarias.
Sesgo de género:
La ventaja femenina se diluyó en ausencia de recursos
económicos.
Vulnerabilidad ignorada:
Ancianos y niños de clases bajas quedaron sistemáticamente
excluidos.
Reflexión final:
Este análisis no solo explica patrones históricos, sino que advierte sobre cómo las desigualdades socioeconómicas pueden distorsionar políticas de emergencia en crisis modernas.